Separar primero, fusionar después: Mitigando la interferencia entre modalidades en el razonamiento de LLMs audiovisuales con cadena de pensamiento específica de modalidad
Aprende cómo mitigar interferencias multimodales en LLMs audiovisuales con la técnica separar primero, fusionar después. Optimiza el rendimiento de modelos de lenguaje y visión.